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兴趣 变化 和 类 别 关 联 度 的 混合 推荐 算法 
陈 海 龙 ， 谢 “ 晟 ， 薛 宇 彤 
(哈尔滨 理工 大 学 计算 机 科学 与 技术 学 院 , 哈尔滨 150080) 


摘 要 : 协同 过 滤 算 法 是 目前 推荐 系统 中 最 普遍 的 个 性 化 推荐 技术 。 针 对 传统 算法 相似 性 度量 方法 不 足 的 问题 ， 提 出 
了 融合 用 户 兴趣 变化 和 类 别 关 联 度 的 混合 推荐 算法 。 算 法 根据 用 户 的 评分 项 目 信息 来 对 项 目 进行 类 别 刘 分 ， 挖 所 出 用 
户 对 不 同类 别 项 目的 喜爱 关注 程度 ; 同时 将 基于 时 间 的 兴趣 度 权 重 函 数 引 入 项 目 相 似 度 计 算 之 中 来 进一步 提高 计算 的 
精确 度 ， 最 后 将 改进 后 的 相似 度 计算 方法 融入 到 用 户 聚 类 方法 中 ， 用 户 聚 类 之 后 ， 其 所 在 的 类 别 将 对 用 户 推 荐 准确 度 
产生 极 大 的 作用 。 实 验 结果 表明 ， 在 Movielens-1k 数据 集 上 运行 该 算法 ， 该 算法 在 运行 效率 和 精确 度 上 都 有 所 提高 。 
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Hybrid recommendation algorithm for user interest change and category related degrees 


Cheng Hailong, Xie Sheng, Xue Yutong 
(School of Computer Science & Technology, Harbin University of Science & Technology, Harbin 150080, China) 


Abstract: Recommendation system has been widely applied to various types of e-commerce sites, which effectively solved 
the problem of information overload, collaborative filtering algorithm is the most common in the recommendation system of 
personalized recommendation technology. Based on the problem of the traditional method of similarity measurement, a hybrid 
recommendation algorithm is proposed to combine the change of interest and class correlation degree. The algorithm classifies 
the project according to the user's rating project information, and finds out how much the user likes to pay attention to different 
categories of projects. At the same time, the time based interest weight function is introduced into the project similarity 
calculation to further improve the accuracy of calculation. Finally, the improved similarity calculation method is integrated 
into the user clustering method. After the user clustering, the category of its location will have a great effect on the user's 
recommended accuracy. The experimental results Show that the algorithm is improved in operation efficiency and accuracy in 
the moviels-1k data set. 
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0 引言 为 了 解决 传统 协同 过 滤 算 法 推荐 精度 不 高 以 及 数据 集 稀 玉 e 
罚 等 问题 ， 许 多 学 者 提出 了 相似 度 改进 算法 以 及 其 他 的 算法 如 聚 
随 着 互联 网 规模 和 和 覆盖面 的 不 断 拓宽 ， 网 上 信息 数据 以 爆 。 ”类 算法 。 例 如 宋 瑞 平 提出 了 基于 用 户 评分 及 用 户 属 性 的 相似 


炸 式 速度 迅速 增长 ， 过 量 的 信息 同时 出 现在 用 户 面 前 使 得 用 户 ” 上 度 计 算 方 法 和 改进 的 最 近 k 邻 的 混合 推荐 算法 一 MSCF 算法 四， 
无 法 从 中 分 辩 和 获取 有 效 的 信息 ， 信 息 利用 率 低下 ， 造 成 信息 。 提高 了 推荐 算法 的 精确 度 ;， 以 上 方法 进一步 提高 了 算法 的 准确 


超载 。 推 荐 系统 是 当前 解决 信息 超载 问题 的 非常 有 效 的 方法 ， 性 ， 但 在 计算 用 户 相 似 度 时 ， 仅 仅 考虑 了 用 户 评分 数据 ， 并 没 
推荐 系统 根据 用 户 的 信息 需求 、 兴 趣 等 ， 将 用 户 感 兴趣 的 信息 、 ”有 考虑 用 户 的 共同 评分 即 用 户 的 评分 差异 度 ， 忽 略 了 项 目的 类 
产品 等 推荐 给 用 户 。 和 搜索 引擎 相 比 推荐 系统 通过 研究 用 户 的 。” 别 喜爱 度 以 及 类 别 关 注 度 等 问题 。 为 了 解决 这 些 问 题 ， 相 关 学 
兴趣 偏好 ， 进 行 个 性 化 计算 ， 由 系统 发 现 用 户 的 兴趣 点 ， 从 而 ”者 还 引入 聚 类 技术 对 协同 过 滤 算 法 进行 优化 。 如 尹 航 提出 的 采 
引导 用 户 发 现 自己 的 信息 需求 。 基 于 用 户 行为 数据 分 析 的 推荐 。 用 聚 类 算法 优化 的 k 近 邻 协 同 过 滤 算 法 四。 用户 相似 性 度量 除 
算法 称 为 协同 过 滤 算 法 ， 其 基本 思想 是 具有 相似 行为 的 用 户 2 了 考虑 用 户 对 项 目的 评分 数值 ， 与 用 户 的 兴趣 也 有 很 大 的 关联 。 
间 具 有 相似 的 需求 爱好 。 因 此 协同 过 滤 算 法 更 关注 用 户 的 历史 ”文献 [7] 通 过 加 入 用 户 的 信任 度 和 项 目 属性 信息 ， 利 用 基于 遗 
行为 ， 不 受 新 项 目的 影响 ， 有 具有 更 好 的 推荐 精度 。 忘 规律 的 兴趣 变化 时 间 策 略 对 用 户 进行 近邻 集合 的 推荐 。 
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针对 以 上 问题 ， 本 文 提 出 了 一 种 基于 用 户 兴趣 变化 和 类 别 
关联 度 的 聚 类 协同 过 滤 算 法 。 用 户 的 兴趣 可 能 会 随 着 时 间 变 化 ， 
因此 将 兴趣 变化 曲线 融入 到 项 目 相似 度 计算 当中 。 类 别 关 联 度 
即 类 别 喜爱 度 或 类 别 关 注 度 ， 代 表 着 一 定 程度 上 的 用 户 偏好 。 
基于 以 上 两 个 因素 ， 本 论文 首先 将 对 项 目 进行 聚 类 ， 然 后 根据 
项 目 聚 类 结果 进行 改进 相似 度 计算 ， 再 根据 相似 度 对 用 户 进行 
聚 类 ， 这 大 大 降低 了 聚 类 的 时 间 复 杂 度 ， 同 时 对 数据 信息 充分 
的 应 用 了 。 


1 ”传统 的 协同 过 滤 推 荐 算法 


基于 用 户 行为 数据 分 析 的 推荐 算法 称 为 协同 过 滤 算 法 ， 其 
基本 思想 是 具有 相似 行为 的 用 户 之 间 具 有 相似 的 需求 爱好 。 
此 协同 过 滤 算 法 更 关注 用 户 的 历史 行为 ， 不 受 新 项 目的 影响 ， 
具有 更 好 的 推荐 精度 。 基 于 协同 过 滤 的 算法 主要 有 基于 用 户 
(项 目 ) 的 推荐 算法 、 基 于 模型 的 推荐 算法 以 及 混合 推 
基于 内 存 的 协同 过 滤 算 法 包括 基于 用 户 的 方法 和 基于 项 目的 方 
法 ， 主 要 分 为 三 个 步骤 : 基于 用 户 - 项 目 评 分 矩阵 ， 计 算 用 户 

(项 目 ) 之 间 的 相似 性 ， 通 过 相似 度 的 逆序 ， 选 取 最 相似 的 前 
K 个 用 户 ( 项 目 ) 作 为 邻居 ; 根据 邻居 的 评分 ， 对 目标 用 户 
(项 目 ) 未 评分 的 项 进行 预测 。 下 面 以 基于 用 户 的 协同 过 滤 算 
法 为 例 进行 详细 说 明 。 

1.1 用 户 一 项 目 评分 模型 

定义 一 个 给 定 的 用 户 集 U 和 项 目 集 S， 用 户 对 项 目的 评分 
表示 为 一 个 mxXn 的 矩阵 R， 如 表 1 所 示 。R Gi, j) 表示 用 户 
i 对 项 目 j 的 评分 ， 代表 用 户 对 项 目的 偏好 。 如 MovieLens 数 


据 集中 用 1~5 分 表示 用 户 的 喜爱 程度 ; 若 R〈i，j) =0 则 表示 
用 户 i 未 对 项 目 j 打 分 。 
表 1 用 户 一 项 目 mxn 阶 评分 矩阵 RR 
5 Sj S, 
U, Ri 及 R 
U; Ri 及 及 
U, Ri Rk, nj R 


1.2 用 户 间 相似 性 度量 公式 

1) 余弦 相似 度 
基于 以 上 用 户 一 项 目 评分 矩阵 来 进行 用 户 相似 度 的 计算 ， 
户 相似 度 计 算 方 法 有 余弦 相似 度 算法 和 皮尔 森 算法 ， 这 里 采 


荐 算法 。 
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余弦 相似 性 的 度量 方法 存在 一 定 的 精确 度 问 题 ， 
到 不 同 用 


未 考虑 
户 的 评分 尺度 问题 ， 所 以 给 出 pearson 相关 系数 。 定 


义 两 用 户 u 和 vv 共同 评 分 过 的 项 目 集合 为 Iuv), 其 中 Io) 和 II(V) 
分 别 为 用 户 u 和 用 户 评分 过 的 项 目 集合 ， 他 们 的 平均 评分 为 


j 户 对 项 目 s 的 评分 为 rus)， 则 相似 度 为 sim(u,v) 为 


> (r(u,s)—r(u)) * (rv,s)—r(y)) 


sel(u,v) 5 (2) 
(Es) -re) “| E0605)-r0)) 


r(u)、 r(V), 


Sim(u,v)= 


相似 度 范围 [-1,.1]， 值 越 大 ， 则 用 户 u 和 v 兴趣 爱好 越 接 
近 ， 本 论文 使 用 pearson 相关 系数 求解 相似 度 。 
计算 相似 度 之 后 ， 选 取 与 用 户 u 相似 度 最 大 的 前 k 个 用 户 
作为 邻居 G(U)， 依 据 这 个 用 户 对 目标 项 目 j 的 评分 ， 加 权 预 
测 用 户 u 对 项 目 j 的 评分 B;， 如 下 公式 所 示 ， 其 中 以 表示 用 
户 u 对 评分 的 均值 ，R, ,表示 用 户 对 悟 项 目 j 的 评分 。 


n 


> sim(u, DR,, —R,) 
已 - R | ieG(u) (3) 
> sim(u, )) 


ieG(u) 


2 ”基于 时 间 的 兴趣 度 权重 


为 用 户 进 行 推荐 ， 着 重 观察 他 的 评价 数据 ， 并 从 中 挖掘 出 
他 的 兴趣 爱好 以 及 需求 ， 最 后 为 他 推荐 相关 产品 。 实 验 数据 集 


中 记录 了 每 位 用 户 对 每 部 电影 评价 时 的 具体 时 间 ， 因 此 根据 这 
个 数据 特点 ， 本 文 可 以 充分 运用 数据 ， 发 掘 该 用 户 的 近期 喜好 


变化 。 人 们 对 不 同 电影 类 别 以 及 电影 的 喜爱 会 随 着 时 间 产 生变 
化 ， 并 且 用 户 近 期 观看 过 的 电影 更 能 为 本 文 预测 其 未 来 感 兴 


的 资源 。 受 遗忘 规律 启发 ， 参 考 Ebbinghaus 遗忘 曲线 函数 的 
特征 ， 设 s (ui) 为 用 户 u 对 项 目 i 的 兴趣 度 。 考 虑 到 用 户 对 
项 目的 评价 时 间 有 前 有 后 ， 设 t0 为 用 户 u 对 项 目 评 分 的 最 早 时 
刻 ，tG) 为 用 户 对 项 目 i 的 评价 时 刻 ， 则 s (uw,i) 可 以 表示 为 : 


—(1i—10) 


(4) 


~_€ 
Ss(u,i) = 
WD fi—t0 


如 果 t0=ti, 则 定义 s(w,i)=1。 

每 个 用 户 的 兴趣 变化 速度 与 规律 不 同 ， 用 户 兴趣 也 存在 各 
种 反复 以 及 变化 ， 因 此 对 于 用 户 早 期 的 访问 数据 ， 也 应 该 重视 
充分 利用 ， 以 下 为 过 往 用 户 兴 趣 相 似 度 的 度量 函数 TI Cui) ， 
设 用 户 u 已 访问 的 项 目 集合 为 I(w)， 定 义 一 时 间 段 T， 
在 最 近 T 时 间 段 访问 过 的 项 目 集合 为 1 Cut) ，I (wt) 表明 了 


户 u 


的 是 余弦 相似 度 算法 ， 将 用 户 评分 看 做 一 个 n 维 的 评分 向 量 ， 
第 k 维 的 值 表 示 对 项 目 k 的 评分 ， 设 用 户 与 用 户 v 的 评分 向 
量 分 别 表 示 向 量 u 和 v， 则 用 户 u 和 用 户 v 之 间 的 相似 度 为 
eV 

加 司 


户 u 和 v 兴趣 爱好 越 接 


(D) 


Sim(u,v) = cos(u,v) = 


相似 度 范 围 [-1,1]， 值 越 大 ， 则 用 


近 。 


2) 相关 相似 性 (pearson 相关 系数 ) 


用 户 的 近期 兴趣 ， 对 于 一 个 项 目 ， 如 果 访问 的 近期 项 目 集合 
中 很 多 项 目 都 与 i 相似 度 很 高 ， 则 说 明 项 目 i 与 用 户 当 前 兴趣 
有 具 有 很 大 关联 ， 未 来 用 户 的 兴趣 可 能 还 与 项 目 i 相似 。 所 以 项 
i 在 预测 用 户 兴趣 时 起 到 关键 作用 。 
通过 i 与 1 (Cut) 中 的 项 目 总 体 相似 度 计算 I Cui) : 


工 


Sim(i, 7) 
ee GO) 
” size(T(u,t)) 
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其 中 :size( (ut) ) 为 用 户 u 在 最 近 工 时 间 段 内 访问 过 的 资源 旨 
合 大 小 。 
以 上 分 析 可 知 ， 结 合 基于 用 户 近 期 兴趣 变化 以 及 用 户 远 
期 兴趣 数据 来 对 数据 进行 分 析 操 作 是 很 有 必要 的 。 兴 趣 变 化 频 


uy 


繁 的 用 户 更 注重 近期 的 兴趣 ， 近 期 喜爱 项 目的 比重 要 大 于 远 世 

项 目 ， 而 基于 过 往 用 户 兴 趣 度量 函数 对 远 期 数据 进行 操作 ， 则 
是 为 了 将 数据 进行 充分 的 运用 ， 避 免 遗漏 早期 关键 数据 的 特点 ， 
无 法 真正 把 握 用 户 兴 趣 存在 反复 的 情况 ， 最 后 ， 将 近期 用 户 兴 


屋 
趣 的 度量 函数 与 远 期 用 户 兴趣 度量 函数 相 结合 得 
FoD=wxsGtD+(G-a)x7GcD (0) 


3 ”相似 度 改进 的 用 户 聚 类 协同 过 滤 算 法 


本 论文 将 采用 开 均 值 聚 类 方法 进行 用 户 和 项 目 聚 类 ， 传 统 
的 聚 类 算法 步 又 为 : 

输入 : 多 个 用 户 分 类 。 

a) 从 用 户 集合 U 中 随机 取 K 个 用 户 ， 作 为 K 个 簇 各 自 的 
中 心 。 

b) 分 别 计算 用 户 UI 与 个 簇 中 心 的 相似 度 ， 将 UI 归 到 相 
似 度 最 大 的 类 别 。 

oj 重新 计算 KK 个 驴 各 自 的 中 心 ， 计 算 方 法 是 求 出 所 有 用 户 


对 项 目的 评分 算术 平均 值 ， 作 为 簇 中 心 点 。 
d) 对 于 U 中 所 有 用 户 重复 步骤 b)c) 的 迭代 法 更 新 ， 直 到 聚 

类 结果 保持 不 变 ， 则 迭代 结束 ， 否 则 继续 迭代 。 

基于 类 别 关 联 度 的 相似 度 计 算 
对 用 户 进 行 相似 度 计算 ， 确 定 艇 中心 时 ， 本 文 对 相似 度 的 

计算 定义 使 用 的 是 pearson 系数 ， 相 对 而 言 ， 计 算 比 较 准 确 ， 

但 是 每 个 用 户 对 电影 的 偏好 不 同 ， 且 近期 用 户 兴趣 也 会 对 相似 

度 计 算 结果 产生 影响 ， 因 此 对 项 目 计算 相似 度 计 算 时 ， 本 文 应 


该 考虑 多 方面 的 影响 因素 。 
完成 项 目 聚 类 操作 之 后 (按照 数据 集 定义 的 类 别 来 进行 聚 
类 ) ,项目 有 相似 性 质 。 每 


被 聚集 为 久 类 ， 每 一 类 中 项 目 都 
个 用 户 有 不 同 的 偏好 ， 因 此 当 项 目 进 行 聚 类 之 后 ， 本 文 就 可 以 
当 
只 


获得 用 户 对 类 别 的 喜爱 程度 了 。 当 用 户 进入 网 站 进行 电影 选择 

时 ， 不 知道 影片 的 具体 内 容 而 是 只 知道 该 影片 的 类 别 ， 用 户 也 

会 有 一 定 的 偏向 性 ， 即 使 当 他 观看 完 该 电影 之 后 ， 并 不 喜欢 这 

外 影 ， 因 此 定义 用 户 工 对 电影 类 别 J 的 类 别 喜 爱 度 为 fav(i,j): 
> ri,k) 


fvti,)) = (7) 


>rCD) 


lec 


a 


根据 以 上 公式 ， 可 以 求 出 月 
simc(1,j): 


户 工 和 本 之 间 的 聚 类 相似 度 


LI 


fav(i) x fav(D) 
IE 


Simc(i, ]) = 


(8) 


其 中 : awl) =[fav(1,1),……,fav(Lk)]。 
根据 以 上 公式 ， 结 合用 户 兴趣 变化 以 及 类 别 关 联 度 之 后 的 
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改进 的 相似 度 计算 方法 为 
sim_c(i,))= Bf(u,D) +(- Psimcli, )) (9) 

其 中 : 8 是 平衡 因子 ， 取 值 范 围 为 [0,1]; 
3.1 基于 改进 相似 度 的 用 户 聚 类 协同 过 滤 算 法 

将 以 上 元 素 均 加 入 到 用 户 相似 度 的 计算 之 中 后 ， 将 对 用 户 
进行 聚 类 ， 最 终 达 到 的 目的 是 将 相似 度 较 高 的 用 户 聚 类 到 一 起 ， 
从 而 在 进行 推荐 的 时 候 不 会 因为 采用 了 兴趣 完全 不 同 的 用 户 的 
数据 ， 对 推荐 产生 偏差 ， 同 时 也 减少 了 不 必要 的 计算 ， 浪 费 电 
脑 资源 ， 本 文 将 采用 -均值 聚 类 方法 进行 用 户 聚 类 ， 聚 类 算 


法 使 用 Python 语言 进行 实验 操作 : 
输入 : KK 个 用 户 分 类 。 
a) 从 用 户 集合 U 中 随机 取 K 个 用 户 ， 作 为 K 个 簇 各 自 的 


中 心 
ranges[i][0])+ranges[i][0] 
for i in range(len(rows[0]))] for j in range(k)]; 获取 个 随 
机 簇 中 心 点 。 
b) 分 别 计算 用 户 U(i) 与 个 簇 中 心 的 相似 度 ， 将 U( i ) 归 
到 相似 度 最 大 的 类 别 。 首 先 给 定 用 户 间 计算 距离 即 相似 度 的 公 
式 ，sim_c(ij); 创 建 循环 ， 计 算 比 较 距 离 ， 进 行 类 别 选择 。 


d=distance(clusters[i],row) 


。 Clusters=[[random.random()*(ranges[i][1]- 


if d<distance(clusters[bestmatch],row): 

bestmatch=1 

bestmatches[bestmatch].append(]); 

c) 重 新 计算 K 个 簇 各 自 的 中 心 ， 计 算 方 法 是 求 出 所 有 用 户 
的 评分 算术 平均 值 ， 作 为 簇 中心 点 。 

d 对 于 U 中 所 有 用 户 重复 步骤 2 和 步骤 3 的 迭代 法 更 新 ， 
直到 聚 类 结果 保持 不 变 ， 则 迭代 结束 ， 否 则 继续 迭代 。 

最 终 获得 玉 个 相似 项 目 类 别 。 当 用 户 聚 类 完成 之 后 ， 本 文 
需要 为 某 一 个 用 户 进行 推荐 时 ， 只 需要 在 他 所 属 类 别 中 获取 与 
他 最 相似 的 的 top 一 N 用 户 ， 根 据 评 分 预测 公式 进行 评分 ， 最 
后 为 他 推荐 评分 最 高 的 前 天 个 项 目 。 


对 项 


束 
2 
熙 忆 
Ti 
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4.1 实验 数据 集 

本 实验 采用 MovieLens-lm 数据 集 ， 其 中 包含 了 6640 位 
用 户 对 4000 个 项 目的 100K 个 评分 ， 并 将 该 数 据 集 的 80% 作 
为 训练 集 ， 剩 下 20% 为 测试 集 。 采用 平均 绝对 误差 MAE 
(Mean Absolute Error ) 作为 指标 ， 衡 量 推 荐 算法 的 优 务 。 设 
预测 的 用 户 评分 集合 为 {pl1，p2，…， pC}， 对 应 的 实际 用 户 
评分 集合 为 {r1，r2，…，rC}， 则 平均 绝对 误差 MAE 定义 为 : 


| 


MAE = 2 |p,— (10) 


Nh iev ,jel 
4.2 实验 结果 与 分 析 
4.2.1 Q 的 选择 
a 是 用 来 均衡 近期 兴趣 变化 以 及 远 期 兴趣 变化 比重 的 因 
子 ， 取 值 范 围 为 [0,1]， 每 次 增加 0.1， 比 较 MAE 的 变化 ， 从 图 
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录用 入 
中 可 以 看 到 ，w =0.2 时 ，MAE 最 小 ， 推 荐 效果 最 佳 ， 这 说 明 


用 户 近期 对 电影 类 别 的 喜爱 将 对 未 来 一 段 时 间 用 户 选择 电影 7 
生 巨大 的 影响 。 现 实生 活 中 也 是 这 样 ， 对 电影 类 别 的 喜爱 具有 
条 


3 


让 太 疆 ， 住 住 二 太 有 昌国 月 二 克 二 个 会 自 入 入 怀 8 
阶段 性 ， 往 往 一 段 时 间 内 的 兴趣 不 会 有 太 大 的 变化 
系列 1 
081 
和 0805 一 
XX 08 
过 0795 
站 079 
Q785 
078 


0.1 0.2 03 0.4 0.5 0.6 0.7 0.8 


a 值 大 小 


图 1 a 值 对 MAE 值 大 小 的 影响 


4.3 ”B 的 选择 

相似 度 中 聚 类 信息 部 分 由 两 部 分 组 成 ， 类 别 关 联 度 以 及 用 
户 兴趣 时 间 变 化 ， 平 衡 因 子 8 平衡 两 部 分 比重 ， 取 值 范围 为 
[0,1]， 每 次 增加 0.1，w 取 0.1， 比 较 MAE 的 变化 ， 如 图 2 所 


不 。 


A 


图 2 8B 值 对 MAE 值 大 4 


2 
RY 
醒 


从 图 中 可 以 看 出 ，B =0.5 时 ，MAE 最 小 ， 推 荐 效果 最 佳 ， 
而 8 值得 大 小 ， 表 明了 类 别 关 联 度 和 用 户 兴趣 变化 两 个 因素 


对 用 户 推荐 结果 的 重要 程度 ，p 取 值 0.5， 表 明 两 者 之 间 没 有 
明显 的 偏差 ， 因 此 关于 最 后 的 相似 度 计算 公式 ， 本 文 取 c =0.2， 


B=0.5。 
4.4 改进 的 算法 性 能 比较 

将 基于 相似 度 改进 的 用 户 聚 类 协同 过 滤 与 传统 协同 过 渡 
(基于 用 户 〈 项 目 ) 的 协同 过 滤 ) 以 及 简单 用 户 聚 类 算法 进行 
比较 分 析 。 简 单 用 户 聚 类 直接 进行 聚 类 ， 基 于 相似 度 改 进 的 用 
户 聚 类 则 根据 实验 结果 取 w =0.1， 5 =0.4， 实 验 结果 如 图 3 所 


不 。 


各 不 同 算法 性 能 比较 
了 ES 


5 10 15 20 25 30 35 40 最 近邻 数 


MAE 值 
口 
Do 


图 3 不 同 算法 性 能 比较 


pa 


J 知 ， 基 于 相似 度 改进 之 后 的 聚 类 算法 比 传 


实验 结果 
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统 的 协同 过 滤 算 法 以 及 传统 的 聚 类 算法 具有 更 小 的 MAE， 并 
且 当 最 近邻 增加 到 25 的 时 候 ，MAE 最 小 。 实 验 数 据 表明 ， 用 
站 的 近期 兴趣 确实 对 实验 结果 产生 了 一 定 的 影响 减少 了 误差 ， 
聚 类 算法 的 实现 ， 结 果 优 于 传统 的 协同 过 滤 算 法 。 


一 


5 ”结束 语 
推荐 系统 帮助 用 户 解决 信息 过 载 问 题 ,已 被 广泛 应 用 于 多 


个 领域 。 协 同 过 滤 、 基 于 内 容 推 荐 、 基 于 矩阵 推荐 和 混合 推 
荐 是 目前 较为 常见 的 推荐 方法 。 本 文 主要 基于 用 户 对 电影 项 
目 评分 以 及 评分 的 时 间 ， 来 进行 项 目 聚 类 ， 发 现 用户 的 类 别 喜 
好 度 关注 度 ， 同 时 发 掘 出 用 户 的 近期 喜好 ， 来 改进 用 户 间 相似 
度 的 计算 法 则 。 通 过 查阅 相关 资料 ， 在 考虑 用 户 近期 喜好 的 同 
时 ， 也 加 入 了 用 户 以 往 的 兴趣 因素 。 最 终 实 验 结果 表明 ， 改 进 
后 的 聚 类 算法 的 确 误差 更 小 了 。 推 荐 算法 依然 在 发 展 进步 中 ， 
数据 稀 琉 、 过 拟 合 、 可 扩展 性 和 多 媒体 信息 特征 提取 仍 是 主 
要 问题 。 现 有 的 技术 和 方法 都 不 能 从 根本 上 解决 这 些 问 题 。 
随 着 应 用 领域 的 不 断 拓展 , 推荐 系统 还 会 面临 新 的 需求 与 问题 。 
推荐 系统 的 发 展 与 它 面临 的 问题 和 挑战 密 不 可 分 , 针对 以 上 问 
题 的 推荐 方法 研究 仍 是 信息 检索 、 数 据 挖掘 和 机 器 学 习 等 智 
能 信息 处 理 领 域 的 研究 热点 。 
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